استفاده از روش رجحان به منظور حل مسائل یادگیری تقویتی در pomdps

پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر
نویسنده الهه عبدی
استاد راهنما میرمحسن پدرام
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1391

چکیده

انتخاب کنش خوب، موضوع اصلی در هر گام تصمیم گیری برای رسیدن به موفقیت در سیستم های طبیعی و مصنوعی به شمار می رود و از این رو انتخاب کنش خوب در سیستم های نیمه رویت پذیر به منظور رسیدن به راه حل های بهتر، ضروری به نظر می رسد. اکثر تحقیقات در حوزه یادگیری ماشین نیز بر دو پایه اصلی بهبود کیفیت و کاهش زمان یادگیری متمرکز هستند. یکی از روش های موجود برای یادگیری در حوزه یادگیری تقویتی، الگوریتم تکرار سیاست می باشد که این روش در فرآیندهای نیمه رویت پذیر مارکوف، به صورت تقریبی و مبتنی بر گسترش می باشد. در این پایان نامه، بکارگیری الگوریتم تکرار سیاست مبتنی بر رجحان در سیستم نیمه رویت پذیر مارکوف با توجه به زمان داخلی پیشنهاد شده است. برای ارزیابی روش پیشنهادی از سه محیط آموزشی ماشین-کوهستان، پاندول معکوس و ماز استفاده شده است. نتایج آزمایش ها نرخ بالای موفقیت را در الگوریتم تکرار سیاست مبتنی بر رجحان که در آن از رتبه بند به عنوان سیاست یادگیری استفاده می شود، نسبت به الگوریتم سنتی تکرار سیاست تقریبی که در آن از نگاشت به عنوان سیاست یادگیری استفاده می شود، نشان می دهند. همچنین اجرای هر روش بر روی هر یک از محیط های شبیه سازی شده در فضای مارکوف رویت پذیر و نیمه رویت پذیر، نتایج تقریبا یکسانی را از خود برجای گذاشته است.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

یک روش ترکیبی جدید یادگیری تقویتی فازی

در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و ...

متن کامل

تنظیم خودکار سختی بازی‌های توان‌بخشی با استفاده از روش یادگیری تقویتی چندتناوبی (یاقوت)

تحقیقات نشان داده است که طراحی فعالیت‌های توان‌بخشی در قالب بازی‌های جدی می‌تواند منجر به انگیزش بیش‌تر در بیماران شود. درجه سختی چنین بازی‌هایی معمولاً به‌صورت دستی توسط درمانگر تنظیم می‌شود. این در حالی است که بازی‌های توان‌بخشی خانگی نیاز به تنظیم خودکار درجه سختی متناسب با مهارت‌های بیماران دارند. این مقاله روشی برای تنظیم درجه سختی بازی‌های توان‌بخشی ارائه می‌کند که در آن سختی بازی به‌صورت ...

متن کامل

راهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست

توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توس...

متن کامل

بسط دوگانه سوپرپیکسل به منظور تعیین ناحیه‌های موثر در حل مسائل بینایی ماشین مبتنی بر قطعه‌بندی

یکی از روشهای موثر برای شناسایی دیداری (شامل طبقه بندی، شناسایی اشیاء و برچسب گذاری معنایی تصویر)، تعیین ناحیه های محتمل بر وجود شیء بنام نامزدهای شیء (Object proposals) است. در این مقاله یک روش کارآمد با تکیه بر تعیین ناحیه های موثر مبتنی بر قطعه بندی ناحیه ای به نام بسط دوگانه سوپرپیکسل SDE (Superpixel Dual Extension) به منظور بهبود کیفیت ناحیه‌بندی پیشنهاد شده است. روش پیشنهادی شا...

متن کامل

حل مسائل هدایت حرارتی معکوس با استفاده از روش تقابل دوگانه اجزاء مرزی

متن کامل

حل مسائل بهینه‌سازی توزیع با استفاده از شبکه‌های عصبی

در این نوشتار چند روش جدید بر مبنای رویکرد شبکه‌های عصبی خودسازنده برای حل مسائل بهینه‌سازی ارائه می‌شود. این روش‌ها به‌ویژه برای دو مسئله‌ی مهم در برنامه‌ریزی توزیع ــ مسئله‌ی فروشنده‌ی دوره‌گرد (T‌S‌P) و مسئله‌ی مسیریابی (V‌R‌P) ــ توسعه یافته‌اند. عملکرد روش‌های ارائه شده با به‌کارگیری مسائل استاندارد موجود در ادبیات مورد ارزیابی قرار گرفته‌اند. نتایج این آزمایشات نشان می‌دهد که روش‌های ارائ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر

کلمات کلیدی

انتخاب کنش فرآیند تصمیم گیری مارکوف نیمه رویت پذیر یادگیری تقویتی تکرار سیاست مبتنی بر رجحان تکرار سیاست تقریبی نرخ موفقیت

میزبانی شده توسط پلتفرم ابری doprax.com